#convexidad logits

Optimización estable de políticas con convexidad de logits

Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.

2026-06-02 · 2 min